require(GGally, quietly = TRUE)
require(reshape2, quietly = TRUE)
require(tidyverse, quietly = TRUE, warn.conflicts = FALSE)
package ‘tidyverse’ was built under R version 3.3.2package ‘tibble’ was built under R version 3.3.2package ‘tidyr’ was built under R version 3.3.2
library(ggfortify)
library(cluster)
library(ggdendro)
library(broom)
theme_set(theme_bw())
source("github-lib.R")
dw <- load_github_wide()
summary(dw)
   repository_language   ForkEvent       IssuesEvent       PushEvent      
 ActionScript:  1      Min.   : 1.000   Min.   : 1.000   Min.   :  1.000  
 Ada         :  1      1st Qu.: 1.509   1st Qu.: 3.437   1st Qu.:  7.052  
 Agda        :  1      Median : 2.083   Median : 4.750   Median :  9.314  
 ANTLR       :  1      Mean   : 2.454   Mean   : 7.311   Mean   : 10.921  
 Apex        :  1      3rd Qu.: 2.913   3rd Qu.: 7.269   3rd Qu.: 10.602  
 AppleScript :  1      Max.   :18.000   Max.   :63.000   Max.   :154.250  
 (Other)     :121                                                         
   WatchEvent    
 Min.   : 1.000  
 1st Qu.: 2.000  
 Median : 3.007  
 Mean   : 3.725  
 3rd Qu.: 4.636  
 Max.   :13.471  
                 
dw %>% 
    select(-repository_language) %>% 
    ggpairs()

 plot: [1,1] [====---------------------------------------------------------]  6% est: 0s 
 plot: [1,2] [========-----------------------------------------------------] 12% est: 1s 
 plot: [1,3] [===========--------------------------------------------------] 19% est: 2s 
 plot: [1,4] [===============----------------------------------------------] 25% est: 1s 
 plot: [2,1] [===================------------------------------------------] 31% est: 1s 
 plot: [2,2] [=======================--------------------------------------] 38% est: 1s 
 plot: [2,3] [===========================----------------------------------] 44% est: 1s 
 plot: [2,4] [==============================-------------------------------] 50% est: 1s 
 plot: [3,1] [==================================---------------------------] 56% est: 1s 
 plot: [3,2] [======================================-----------------------] 62% est: 1s 
 plot: [3,3] [==========================================-------------------] 69% est: 1s 
 plot: [3,4] [==============================================---------------] 75% est: 0s 
 plot: [4,1] [==================================================-----------] 81% est: 0s 
 plot: [4,2] [=====================================================--------] 88% est: 0s 
 plot: [4,3] [=========================================================----] 94% est: 0s 
 plot: [4,4] [=============================================================]100% est: 0s 
                                                                                         

# XML e Bluespec têm mais de 50 pushes / repositório e 
# outras linguagens têm também números estranhos. Filtraremos.
dw <- dw %>% 
  filter(PushEvent < 50, IssuesEvent < 50, ForkEvent < 18)

As variáveis são bastante assimétricas e concentradas em pequenos valores. Transformá-las para log ajuda na visualização.

summary(dw2.scaled)
   repository_language   ForkEvent         IssuesEvent         PushEvent      
 ActionScript:  1      Min.   :-1.80630   Min.   :-2.22415   Min.   :-5.1947  
 Ada         :  1      1st Qu.:-0.81777   1st Qu.:-0.46527   1st Qu.:-0.4681  
 Agda        :  1      Median :-0.01687   Median :-0.02479   Median : 0.1830  
 ANTLR       :  1      Mean   : 0.00000   Mean   : 0.00000   Mean   : 0.0000  
 Apex        :  1      3rd Qu.: 0.75644   3rd Qu.: 0.55363   3rd Qu.: 0.4992  
 AppleScript :  1      Max.   : 2.56203   Max.   : 2.76710   Max.   : 2.7606  
 (Other)     :115                                                             
   WatchEvent         cluster         
 Min.   :-1.88615   Length:121        
 1st Qu.:-0.72590   Class :character  
 Median :-0.04339   Mode  :character  
 Mean   : 0.00000                     
 3rd Qu.: 0.68503                     
 Max.   : 2.35217                     
                                      
dists = dw2.scaled %>% 
    column_to_rownames("repository_language") %>% 
    dist(method = "euclidean")
hc = hclust(dists, method = "ward.D")
plot(hc, cex = .6)

plot(hc, hang = -1)
n_clusters = 4
rect.hclust(hc, k=n_clusters)

dw2 <- dw2 %>% 
    mutate(cluster = hc %>% 
               cutree(k = n_clusters) %>% 
               as.character())
dw2.scaled <- dw2.scaled %>% 
    mutate(cluster = hc %>% 
               cutree(k = n_clusters) %>% 
               as.character())
dw2.long = melt(dw2.scaled, id.vars = c("repository_language", "cluster"))
hc %>% 
    cutree(k = n_clusters) %>% 
    silhouette(dists) %>% 
    plot(col = RColorBrewer::brewer.pal(n_clusters, "Set2"))

dw2.long %>% 
    ggplot(aes(x = variable, y = value, group = repository_language, colour = cluster)) + 
    geom_line(alpha = 0.4) + 
    facet_wrap(~ cluster) 

library(plotly)
p <- dw2 %>%
    plot_ly(type = 'parcoords',
            line = list(color = ~cluster),
            dimensions = list(
                #list(range = c(1, 4), label = "cluster", values = ~cluster),
                list(range = c(0, 4),
                     label = 'Sepal Width', values = ~ForkEvent),
                list(range = c(0, 4),
                     constraintrange = c(5,6),
                     label = 'Sepal Length', values = ~IssuesEvent),
                list(range = c(0, 4),
                     label = 'Petal Width', values = ~PushEvent),
                list(range = c(0, 4),
                     label = 'Petal Length', values = ~WatchEvent)
            )
    )
p

k-means

table(km %>% pull(cluster))
Error in function_list[[k]](value) : 
  não foi possível encontrar a função "pull"

Qual seria um bom valor de k? Uma medida comumente usada no kmeans é comparar a distância (quadrática) entre o centro dos clusters e o centro dos dados com a distância (quadrática) entre os pontos todos nos dados e o centro dos dados. Aqui o centro dos dados é um ponto imaginário na média de todas as variáveis. Calculamos a distância do centro de cada cluster para o centro dos dados e multiplicamos pelo número de pontos nesse cluster. Somando esse valor para todos os clusters, temos betweenss abaixo. Se esse valor for próximo do somatório total das distâncias dos pontos para o centro dos dados (totss), os pontos estão próximos do centro de seu cluster. Essa proporção pode ser usada para definir um bom valor de k. Quando ela para de crescer, para de valer à pena aumentar k.

set.seed(123)
explorando_k = tibble(k = 1:15) %>% 
    group_by(k) %>% 
    do(
        kmeans(select(dw2.scaled, -repository_language), 
               centers = .$k, 
               nstart = 20) %>% glance()
    )
explorando_k %>% 
    ggplot(aes(x = k, y = betweenss / totss)) + 
    geom_line() + 
    geom_point()


K-means

filmes = readr::read_csv("dados/filmes-scarlett-johanssson.csv")
Parsed with column specification:
cols(
  RATING = col_double(),
  TITLE = col_character(),
  CREDIT = col_character(),
  `BOX OFFICE` = col_double(),
  YEAR = col_integer()
)

Mais um exemplo

O dataset ruspini é clássico para ilustrar agrupamento.

Hierárquico

dists = dist(rs, method = "euclidean")
hc = hclust(dists, method = "ward.D")

plot(hc, hang = -1, cex = 0.8)

rect.hclust(hc, k=4)

rs$cluster = factor(cutree(hc, k=4))

ggplot(rs, aes(x = x, y = y, colour = cluster)) + 
  geom_point(size = 3) 

rs$cluster = factor(cutree(hc, k=8))
ggplot(rs, aes(x = x, y = y, colour = cluster, label = cluster)) + 
  geom_point(size = 2) + 
  geom_text(hjust = -.1, vjust = 1) + 
  xlim(0, 150)

plot(silhouette(cutree(hc, k = 4), dists))
plot(silhouette(cutree(hc, k = 6), dists))

#heatmap(as.matrix(dw2[,1:4]), Colv=F, scale='none')
#hc.data <- dendro_data(hc)
#ggdendrogram(hc.data, rotate = TRUE) + 
  #labs(title = "Agrupamento de Rustini")
km <- kmeans(rs, centers=4, nstart=10)
km

autoplot(km, data = rs)

autoplot(km, data = rs, frame = TRUE)
---
title: "Kmeans e mais exemplos"
author: "Nazareno Andrade"
date: "30 de março de 2016"
output: 
    html_notebook
editor_options: 
  chunk_output_type: inline
---

```{r, message=FALSE}
require(GGally, quietly = TRUE)
require(reshape2, quietly = TRUE)
require(tidyverse, quietly = TRUE, warn.conflicts = FALSE)
library(ggfortify)
library(cluster)
library(ggdendro)
library(broom)

theme_set(theme_bw())
source("github-lib.R")
```

```{r}
dw <- load_github_wide()
summary(dw)

dw %>% 
    select(-repository_language) %>% 
    ggpairs()

# XML e Bluespec têm mais de 50 pushes / repositório e 
# outras linguagens têm também números estranhos. Filtraremos.
dw <- dw %>% 
  filter(PushEvent < 50, IssuesEvent < 50, ForkEvent < 18)
```

As variáveis são bastante assimétricas e concentradas em pequenos valores. Transformá-las para log ajuda na visualização.

```{r}
# Escala de log 
dw2 <- dw %>% 
    mutate_each(funs(log), 2:5)

dw2 %>% 
    select(-repository_language) %>% 
    ggpairs()

summary(select(dw2, -repository_language))

dw2.scaled = dw2 %>% 
  mutate_each(funs(as.vector(scale(.))), 2:5)
summary(dw2.scaled)
```


```{r}
dists = dw2.scaled %>% 
    column_to_rownames("repository_language") %>% 
    dist(method = "euclidean")
hc = hclust(dists, method = "ward.D")

plot(hc, cex = .6)
plot(hc, hang = -1)

n_clusters = 4
rect.hclust(hc, k=n_clusters)

dw2 <- dw2 %>% 
    mutate(cluster = hc %>% 
               cutree(k = n_clusters) %>% 
               as.character())

dw2.scaled <- dw2.scaled %>% 
    mutate(cluster = hc %>% 
               cutree(k = n_clusters) %>% 
               as.character())

dw2.long = melt(dw2.scaled, id.vars = c("repository_language", "cluster"))

hc %>% 
    cutree(k = n_clusters) %>% 
    silhouette(dists) %>% 
    plot(col = RColorBrewer::brewer.pal(n_clusters, "Set2"))

dw2.long %>% 
    ggplot(aes(x = variable, y = value, group = repository_language, colour = cluster)) + 
    geom_line(alpha = 0.4) + 
    facet_wrap(~ cluster) 

```

```{r}
library(plotly)
p <- dw2 %>%
    plot_ly(type = 'parcoords',
            line = list(color = ~cluster),
            dimensions = list(
                #list(range = c(1, 4), label = "cluster", values = ~cluster),
                list(range = c(0, 4),
                     label = 'Forks/repo', values = ~ForkEvent),
                list(range = c(0, 4),
                     constraintrange = c(5,6),
                     label = 'Issues/repo', values = ~IssuesEvent),
                list(range = c(0, 4),
                     label = 'Pushes/repo', values = ~PushEvent),
                list(range = c(0, 4),
                     label = 'Watches/repo', values = ~WatchEvent)
            )
    )
p
```


## k-means

```{r}
dw2.scaled = dw2.scaled %>% 
    select(-cluster) # Remove o cluster adicionado antes lá em cima via hclust

# O agrupamento de fato:
km = dw2.scaled %>% 
    select(-repository_language) %>% 
    kmeans(centers = n_clusters, nstart = 20)

# O df em formato longo, para visualização 
dw2.scaled.km.long = km %>% 
    augment(dw2.scaled) %>% # Adiciona o resultado de km 
                            # aos dados originais dw2.scaled em 
                            # uma variável chamada .cluster
    gather(key = "variável", 
           value = "valor", 
           -repository_language, -.cluster) # = move para long todas as 
                                            # variávies menos repository_language 
                                            # e .cluster

dw2.scaled.km.long %>% 
    ggplot(aes(x = `variável`, y = valor, group = repository_language, colour = .cluster)) + 
    geom_point(alpha = 0.2) + 
    geom_line(alpha = .5) + 
    facet_wrap(~ .cluster) 

autoplot(km, data = dw2.scaled, label = TRUE)

dists = dw2.scaled %>% 
    select(-repository_language) %>% 
    dist() # só para plotar silhouetas depois
plot(silhouette(km$cluster, dists), col = RColorBrewer::brewer.pal(n_clusters, "Set2"))

table(km %>% pull(cluster))
```

```{r}
#summary(dw2.scaled)
p <- km %>% 
    augment(dw2.scaled) %>%
    plot_ly(type = 'parcoords',
            line = list(color = ~.cluster, 
                        showScale = TRUE),
            dimensions = list(
                #list(range = c(1, 4), label = "cluster", values = ~cluster),
                list(range = c(-3, 3),
                     label = 'Forks/repo', values = ~ForkEvent),
                list(range = c(-3, 3),
                     label = 'Issues/repo', values = ~IssuesEvent),
                list(range = c(-6, 3),
                     label = 'Pushes/repo', values = ~PushEvent),
                list(range = c(-2, 3),
                     label = 'Watches/repo', values = ~WatchEvent)
            )
    )
p

```

Qual seria um bom valor de k? Uma medida comumente usada no kmeans é comparar a distância (quadrática) entre o centro dos clusters e o centro dos dados com a distância (quadrática) entre os pontos todos nos dados e o centro dos dados. Aqui o centro dos dados é um ponto imaginário na média de todas as variáveis. Calculamos a distância do centro de cada cluster para o centro dos dados e multiplicamos pelo número de pontos nesse cluster. Somando esse valor para todos os clusters, temos `betweenss` abaixo. Se esse valor for próximo do somatório total das distâncias dos pontos para o centro dos dados (`totss`), os pontos estão próximos do centro de seu cluster. 
Essa proporção pode ser usada para definir um bom valor de `k`. Quando ela para de crescer, para de valer à pena aumentar `k`.

```{r}
set.seed(123)
explorando_k = tibble(k = 1:15) %>% 
    group_by(k) %>% 
    do(
        kmeans(select(dw2.scaled, -repository_language), 
               centers = .$k, 
               nstart = 20) %>% glance()
    )

explorando_k %>% 
    ggplot(aes(x = k, y = betweenss / totss)) + 
    geom_line() + 
    geom_point()
```


--------------------


## K-means

```{r}
filmes = readr::read_csv("dados/filmes-scarlett-johanssson.csv")

filmes_t = filmes %>% 
    select(-CREDIT) %>% 
    mutate(`BOX OFFICE` = log10(`BOX OFFICE`)) %>% 
    mutate_each(funs(as.vector(scale(.))), `BOX OFFICE`, RATING)

atribuicoes = tibble(k = 1:6) %>% 
    group_by(k) %>% 
    do(kmeans(select(filmes_t, RATING, `BOX OFFICE`), 
              centers = .$k, 
              nstart = 10) %>% augment(filmes)) # alterne entre filmes e filmes_t no augment  

atribuicoes_long = atribuicoes %>% 
    gather(key = "variavel", value = "valor", -TITLE, -k, -.cluster, -CREDIT) 

atribuicoes %>%
    ggplot(aes(x = RATING, y = `BOX.OFFICE`, label = TITLE, colour = .cluster)) + 
    geom_point() + 
    #geom_text() + 
    facet_wrap(~ k)
    #+ scale_y_log10()

# A silhoueta
dists = select(filmes_t, RATING, `BOX OFFICE`) %>% dist()
km = kmeans(select(filmes_t, RATING, `BOX OFFICE`), 
            centers = 4, 
            nstart = 10) 

silhouette(km$cluster, dists) %>% 
    plot(col = RColorBrewer::brewer.pal(4, "Set2"))
```

```{r}
set.seed(123)
explorando_k = tibble(k = 1:15) %>% 
    group_by(k) %>% 
    do(
        kmeans(select(filmes_t, -TITLE), 
               centers = .$k, 
               nstart = 20) %>% glance()
    )

explorando_k %>% 
    ggplot(aes(x = k, y = betweenss / totss)) + 
    geom_line() + 
    geom_point()

```


# Mais um exemplo

O dataset ruspini é clássico para ilustrar agrupamento.

```{r}
str(ruspini)

ggplot(ruspini, aes(x = x, y = y)) + 
  geom_point(size = 3)

summary(ruspini)

rs <- data.frame((ruspini))
rs <- data.frame(scale(ruspini))
colMeans(rs)

ggplot(rs, aes(x = x, y = y)) + 
  geom_point(size = 3)

```

## Hierárquico

```{r}
dists = dist(rs, method = "euclidean")
hc = hclust(dists, method = "ward.D")

plot(hc, hang = -1, cex = 0.8)

rect.hclust(hc, k=4)

rs$cluster = factor(cutree(hc, k=4))

ggplot(rs, aes(x = x, y = y, colour = cluster)) + 
  geom_point(size = 3) 

rs$cluster = factor(cutree(hc, k=8))
ggplot(rs, aes(x = x, y = y, colour = cluster, label = cluster)) + 
  geom_point(size = 2) + 
  geom_text(hjust = -.1, vjust = 1) + 
  xlim(0, 150)

plot(silhouette(cutree(hc, k = 4), dists))
plot(silhouette(cutree(hc, k = 6), dists))

#heatmap(as.matrix(dw2[,1:4]), Colv=F, scale='none')
#hc.data <- dendro_data(hc)
#ggdendrogram(hc.data, rotate = TRUE) + 
  #labs(title = "Agrupamento de Rustini")
```

```{r}
km <- kmeans(rs, centers=4, nstart=10)
km

autoplot(km, data = rs)

autoplot(km, data = rs, frame = TRUE)

```

